Modèle d'indexation de documents peu symboliques dans des documents structurés: L'exemple du graphique dans un corpus de documents techniques
نویسندگان
چکیده
RÉSUMÉ. Cet article s’intéresse à l’indexation des données ayant une sémantique pauvre dans des documents structurés. Le but est d’exploiter le contenu des données symboliques avoisinantes afin d’en extraire les fragments adéquats pour compléter l’indexation de la donnée non symbolique. Cette approche a été abordée dans le cadre concret d’une application dans un contexte professionnel : indexer les graphiques des documents techniques en exploitant le texte qui les accompagne. Cette indexation est articulée autour d’un modèle de représentation des graphiques tenant compte de la finalité de leur utilisation et du professionnalisme de leurs usagers, et d’un modèle d’extraction des termes d’indexation à partir du texte du document technique.
منابع مشابه
Restructuration automatique de documents dans les corpus semi-structurés hétérogènes
Résumé. L’interrogation de grandes bases de documents semi-structurés (type XML) est un problème ouvert important. En effet, pour interroger un document dont le schéma est nouveau, un système doit pouvoir soit adapter la requête posée au document, soit adapter le document pour pouvoir lui appliquer la requête. Nous nous positionnons ici dans le cadre de la restructuration de documents qui consi...
متن کاملAnnotation formelle graphique de documents multimédia
Résumé : Cet article présente une méthodologie et un atelier de construction graphique de descriptions formelles de documents. Cet atelier est destiné à être intégré dans des applications de gestion de corpus de documents nécessitant l’utilisation d’un processus d’annotation basé sur l’interprétation du contenu des documents (en particulier l’indexation de documents audiovisuels). L’approche pr...
متن کاملApprentissage actif pour l'annotation de documents
RÉSUMÉ. Dans le cadre du projet LegDoc au Centre Européen de Recherche de Xerox, nous avons développé des composants pour l’annotation sémantique de documents semi-structurés. Alors que certaines entités sémantiques ont une forme régulière et peuvent être facilement extraites, d’autres collections plus complexes et hétérogénes nous ont amenés à déployer des méthodes d’apprentissage automatique....
متن کاملVers un modèle d'indexation sémantique adapté aux dossiers médicaux de patients
This paper presents a semantic model adapted for the indexing of electronic patient records (EHRs) as a support to the process of finding medical information. Given the specificity of such documents, the indexing is based on the sequence of Natural Language Processing steps: semantic annotation based on the use of the MeSH (Medical Subject Headings) thesaurus, concept disambiguation, extraction...
متن کاملUn modèle statistique pour la classification de documents structurés
: We present a learning model for categorization of structured documents that takes into account both structural information and textual information. We first define a generative model of structured documents using belief networks. Then we transform the generative model into a discriminant one using the Fisher kernel. Finally, we describe an instance of this model applied to the categorization ...
متن کامل